Correction de césures et enrichissement de requêtes par Wikipédia appliqués à la recherche de livres
Identifieur interne : 000350 ( Main/Exploration ); précédent : 000349; suivant : 000351Correction de césures et enrichissement de requêtes par Wikipédia appliqués à la recherche de livres
Auteurs : Romain Deveaud [France] ; Florian Boudin [France] ; Eric Sanjuan [France] ; Patrice Bellot [France]Source :
Descripteurs français
Abstract
RÉSUMÉ. Les livres numérisés accessibles sur Internet constituent une importante source d'in-formation. Néanmoins, la Reconnaissance Optique des Caractères (ROC) introduit parfois des erreurs qui peuvent pénaliser la Recherche d'Information. Dans cet article nous proposons une méthode de correction des césures et nous en analysons l'impact sur une tâche de recherche de livres. Nous décrivons également une série d'expériences sur l'enrichissement de requêtes à partir de mots extraits de Wikipédia. Les résultats obtenus montrent qu'utiliser un grand nombre de mots ainsi qu'une répartition adéquate des poids entre la requête initiale et l'enrichissement apporte une amélioration significative par rapport à l'état de l'art. ABSTRACT. Digitized books are now a common source of information on the Web, however OCR sometimes introduces errors that can penalize Information Retrieval. In this paper we propose a method for correcting hyphenations and we analyse its impact on a standard book retrieval task. We also experiment query expansion with words extracted from the Wikipedia page related to the query. We show that there is a significant improvement over the state-of-the-art when using a large weighted list of words. MOTS-CLÉS : Livres numérisés, césures, enrichissement de requête, Wikipédia.
Url:
Affiliations:
Links toward previous steps (curation, corpus...)
- to stream Hal, to step Corpus: 000143
- to stream Hal, to step Curation: 000143
- to stream Hal, to step Checkpoint: 000091
- to stream Main, to step Merge: 000355
- to stream Main, to step Curation: 000350
Le document en format XML
<record><TEI><teiHeader><fileDesc><titleStmt><title xml:lang="fr">Correction de césures et enrichissement de requêtes par Wikipédia appliqués à la recherche de livres</title>
<author><name sortKey="Deveaud, Romain" sort="Deveaud, Romain" uniqKey="Deveaud R" first="Romain" last="Deveaud">Romain Deveaud</name>
<affiliation wicri:level="1"><hal:affiliation type="laboratory" xml:id="struct-100376" status="VALID"><orgName>Laboratoire Informatique d'Avignon</orgName>
<orgName type="acronym">LIA</orgName>
<desc><address><addrLine>339 Chemin des Meinajaries Agroparc BP 1228 84911 Avignon cedex 9</addrLine>
<country key="FR"></country>
</address>
<ref type="url">http://lia.univ-avignon.fr/</ref>
</desc>
<listRelation><relation active="#struct-195507" type="direct"></relation>
<relation active="#struct-302221" type="direct"></relation>
</listRelation>
<tutelles><tutelle active="#struct-195507" type="direct"><org type="institution" xml:id="struct-195507" status="VALID"><orgName>Université d'Avignon et des Pays de Vaucluse</orgName>
<orgName type="acronym">UAPV</orgName>
<desc><address><addrLine>74 rue Louis Pasteur - 84 029 Avignon cedex 1</addrLine>
<country key="FR"></country>
</address>
<ref type="url">http://www.univ-avignon.fr/</ref>
</desc>
</org>
</tutelle>
<tutelle active="#struct-302221" type="direct"><org type="institution" xml:id="struct-302221" status="VALID"><orgName>Centre d'Enseignement et de Recherche en Informatique - CERI</orgName>
<desc><address><country key="FR"></country>
</address>
</desc>
</org>
</tutelle>
</tutelles>
</hal:affiliation>
<country>France</country>
<placeName><settlement type="city">Avignon</settlement>
<region type="region" nuts="2">Provence-Alpes-Côte d'Azur</region>
</placeName>
<orgName type="university">Université d'Avignon</orgName>
</affiliation>
</author>
<author><name sortKey="Boudin, Florian" sort="Boudin, Florian" uniqKey="Boudin F" first="Florian" last="Boudin">Florian Boudin</name>
<affiliation wicri:level="1"><hal:affiliation type="laboratory" xml:id="struct-100376" status="VALID"><orgName>Laboratoire Informatique d'Avignon</orgName>
<orgName type="acronym">LIA</orgName>
<desc><address><addrLine>339 Chemin des Meinajaries Agroparc BP 1228 84911 Avignon cedex 9</addrLine>
<country key="FR"></country>
</address>
<ref type="url">http://lia.univ-avignon.fr/</ref>
</desc>
<listRelation><relation active="#struct-195507" type="direct"></relation>
<relation active="#struct-302221" type="direct"></relation>
</listRelation>
<tutelles><tutelle active="#struct-195507" type="direct"><org type="institution" xml:id="struct-195507" status="VALID"><orgName>Université d'Avignon et des Pays de Vaucluse</orgName>
<orgName type="acronym">UAPV</orgName>
<desc><address><addrLine>74 rue Louis Pasteur - 84 029 Avignon cedex 1</addrLine>
<country key="FR"></country>
</address>
<ref type="url">http://www.univ-avignon.fr/</ref>
</desc>
</org>
</tutelle>
<tutelle active="#struct-302221" type="direct"><org type="institution" xml:id="struct-302221" status="VALID"><orgName>Centre d'Enseignement et de Recherche en Informatique - CERI</orgName>
<desc><address><country key="FR"></country>
</address>
</desc>
</org>
</tutelle>
</tutelles>
</hal:affiliation>
<country>France</country>
<placeName><settlement type="city">Avignon</settlement>
<region type="region" nuts="2">Provence-Alpes-Côte d'Azur</region>
</placeName>
<orgName type="university">Université d'Avignon</orgName>
</affiliation>
</author>
<author><name sortKey="Sanjuan, Eric" sort="Sanjuan, Eric" uniqKey="Sanjuan E" first="Eric" last="Sanjuan">Eric Sanjuan</name>
<affiliation wicri:level="1"><hal:affiliation type="laboratory" xml:id="struct-100376" status="VALID"><orgName>Laboratoire Informatique d'Avignon</orgName>
<orgName type="acronym">LIA</orgName>
<desc><address><addrLine>339 Chemin des Meinajaries Agroparc BP 1228 84911 Avignon cedex 9</addrLine>
<country key="FR"></country>
</address>
<ref type="url">http://lia.univ-avignon.fr/</ref>
</desc>
<listRelation><relation active="#struct-195507" type="direct"></relation>
<relation active="#struct-302221" type="direct"></relation>
</listRelation>
<tutelles><tutelle active="#struct-195507" type="direct"><org type="institution" xml:id="struct-195507" status="VALID"><orgName>Université d'Avignon et des Pays de Vaucluse</orgName>
<orgName type="acronym">UAPV</orgName>
<desc><address><addrLine>74 rue Louis Pasteur - 84 029 Avignon cedex 1</addrLine>
<country key="FR"></country>
</address>
<ref type="url">http://www.univ-avignon.fr/</ref>
</desc>
</org>
</tutelle>
<tutelle active="#struct-302221" type="direct"><org type="institution" xml:id="struct-302221" status="VALID"><orgName>Centre d'Enseignement et de Recherche en Informatique - CERI</orgName>
<desc><address><country key="FR"></country>
</address>
</desc>
</org>
</tutelle>
</tutelles>
</hal:affiliation>
<country>France</country>
<placeName><settlement type="city">Avignon</settlement>
<region type="region" nuts="2">Provence-Alpes-Côte d'Azur</region>
</placeName>
<orgName type="university">Université d'Avignon</orgName>
</affiliation>
</author>
<author><name sortKey="Bellot, Patrice" sort="Bellot, Patrice" uniqKey="Bellot P" first="Patrice" last="Bellot">Patrice Bellot</name>
<affiliation wicri:level="1"><hal:affiliation type="laboratory" xml:id="struct-100376" status="VALID"><orgName>Laboratoire Informatique d'Avignon</orgName>
<orgName type="acronym">LIA</orgName>
<desc><address><addrLine>339 Chemin des Meinajaries Agroparc BP 1228 84911 Avignon cedex 9</addrLine>
<country key="FR"></country>
</address>
<ref type="url">http://lia.univ-avignon.fr/</ref>
</desc>
<listRelation><relation active="#struct-195507" type="direct"></relation>
<relation active="#struct-302221" type="direct"></relation>
</listRelation>
<tutelles><tutelle active="#struct-195507" type="direct"><org type="institution" xml:id="struct-195507" status="VALID"><orgName>Université d'Avignon et des Pays de Vaucluse</orgName>
<orgName type="acronym">UAPV</orgName>
<desc><address><addrLine>74 rue Louis Pasteur - 84 029 Avignon cedex 1</addrLine>
<country key="FR"></country>
</address>
<ref type="url">http://www.univ-avignon.fr/</ref>
</desc>
</org>
</tutelle>
<tutelle active="#struct-302221" type="direct"><org type="institution" xml:id="struct-302221" status="VALID"><orgName>Centre d'Enseignement et de Recherche en Informatique - CERI</orgName>
<desc><address><country key="FR"></country>
</address>
</desc>
</org>
</tutelle>
</tutelles>
</hal:affiliation>
<country>France</country>
<placeName><settlement type="city">Avignon</settlement>
<region type="region" nuts="2">Provence-Alpes-Côte d'Azur</region>
</placeName>
<orgName type="university">Université d'Avignon</orgName>
</affiliation>
</author>
</titleStmt>
<publicationStmt><idno type="wicri:source">HAL</idno>
<idno type="RBID">Hal:hal-01314943</idno>
<idno type="halId">hal-01314943</idno>
<idno type="halUri">https://hal.archives-ouvertes.fr/hal-01314943</idno>
<idno type="url">https://hal.archives-ouvertes.fr/hal-01314943</idno>
<date when="2011-03">2011-03</date>
<idno type="wicri:Area/Hal/Corpus">000143</idno>
<idno type="wicri:Area/Hal/Curation">000143</idno>
<idno type="wicri:Area/Hal/Checkpoint">000091</idno>
<idno type="wicri:Area/Main/Merge">000355</idno>
<idno type="wicri:Area/Main/Curation">000350</idno>
<idno type="wicri:Area/Main/Exploration">000350</idno>
</publicationStmt>
<sourceDesc><biblStruct><analytic><title xml:lang="fr">Correction de césures et enrichissement de requêtes par Wikipédia appliqués à la recherche de livres</title>
<author><name sortKey="Deveaud, Romain" sort="Deveaud, Romain" uniqKey="Deveaud R" first="Romain" last="Deveaud">Romain Deveaud</name>
<affiliation wicri:level="1"><hal:affiliation type="laboratory" xml:id="struct-100376" status="VALID"><orgName>Laboratoire Informatique d'Avignon</orgName>
<orgName type="acronym">LIA</orgName>
<desc><address><addrLine>339 Chemin des Meinajaries Agroparc BP 1228 84911 Avignon cedex 9</addrLine>
<country key="FR"></country>
</address>
<ref type="url">http://lia.univ-avignon.fr/</ref>
</desc>
<listRelation><relation active="#struct-195507" type="direct"></relation>
<relation active="#struct-302221" type="direct"></relation>
</listRelation>
<tutelles><tutelle active="#struct-195507" type="direct"><org type="institution" xml:id="struct-195507" status="VALID"><orgName>Université d'Avignon et des Pays de Vaucluse</orgName>
<orgName type="acronym">UAPV</orgName>
<desc><address><addrLine>74 rue Louis Pasteur - 84 029 Avignon cedex 1</addrLine>
<country key="FR"></country>
</address>
<ref type="url">http://www.univ-avignon.fr/</ref>
</desc>
</org>
</tutelle>
<tutelle active="#struct-302221" type="direct"><org type="institution" xml:id="struct-302221" status="VALID"><orgName>Centre d'Enseignement et de Recherche en Informatique - CERI</orgName>
<desc><address><country key="FR"></country>
</address>
</desc>
</org>
</tutelle>
</tutelles>
</hal:affiliation>
<country>France</country>
<placeName><settlement type="city">Avignon</settlement>
<region type="region" nuts="2">Provence-Alpes-Côte d'Azur</region>
</placeName>
<orgName type="university">Université d'Avignon</orgName>
</affiliation>
</author>
<author><name sortKey="Boudin, Florian" sort="Boudin, Florian" uniqKey="Boudin F" first="Florian" last="Boudin">Florian Boudin</name>
<affiliation wicri:level="1"><hal:affiliation type="laboratory" xml:id="struct-100376" status="VALID"><orgName>Laboratoire Informatique d'Avignon</orgName>
<orgName type="acronym">LIA</orgName>
<desc><address><addrLine>339 Chemin des Meinajaries Agroparc BP 1228 84911 Avignon cedex 9</addrLine>
<country key="FR"></country>
</address>
<ref type="url">http://lia.univ-avignon.fr/</ref>
</desc>
<listRelation><relation active="#struct-195507" type="direct"></relation>
<relation active="#struct-302221" type="direct"></relation>
</listRelation>
<tutelles><tutelle active="#struct-195507" type="direct"><org type="institution" xml:id="struct-195507" status="VALID"><orgName>Université d'Avignon et des Pays de Vaucluse</orgName>
<orgName type="acronym">UAPV</orgName>
<desc><address><addrLine>74 rue Louis Pasteur - 84 029 Avignon cedex 1</addrLine>
<country key="FR"></country>
</address>
<ref type="url">http://www.univ-avignon.fr/</ref>
</desc>
</org>
</tutelle>
<tutelle active="#struct-302221" type="direct"><org type="institution" xml:id="struct-302221" status="VALID"><orgName>Centre d'Enseignement et de Recherche en Informatique - CERI</orgName>
<desc><address><country key="FR"></country>
</address>
</desc>
</org>
</tutelle>
</tutelles>
</hal:affiliation>
<country>France</country>
<placeName><settlement type="city">Avignon</settlement>
<region type="region" nuts="2">Provence-Alpes-Côte d'Azur</region>
</placeName>
<orgName type="university">Université d'Avignon</orgName>
</affiliation>
</author>
<author><name sortKey="Sanjuan, Eric" sort="Sanjuan, Eric" uniqKey="Sanjuan E" first="Eric" last="Sanjuan">Eric Sanjuan</name>
<affiliation wicri:level="1"><hal:affiliation type="laboratory" xml:id="struct-100376" status="VALID"><orgName>Laboratoire Informatique d'Avignon</orgName>
<orgName type="acronym">LIA</orgName>
<desc><address><addrLine>339 Chemin des Meinajaries Agroparc BP 1228 84911 Avignon cedex 9</addrLine>
<country key="FR"></country>
</address>
<ref type="url">http://lia.univ-avignon.fr/</ref>
</desc>
<listRelation><relation active="#struct-195507" type="direct"></relation>
<relation active="#struct-302221" type="direct"></relation>
</listRelation>
<tutelles><tutelle active="#struct-195507" type="direct"><org type="institution" xml:id="struct-195507" status="VALID"><orgName>Université d'Avignon et des Pays de Vaucluse</orgName>
<orgName type="acronym">UAPV</orgName>
<desc><address><addrLine>74 rue Louis Pasteur - 84 029 Avignon cedex 1</addrLine>
<country key="FR"></country>
</address>
<ref type="url">http://www.univ-avignon.fr/</ref>
</desc>
</org>
</tutelle>
<tutelle active="#struct-302221" type="direct"><org type="institution" xml:id="struct-302221" status="VALID"><orgName>Centre d'Enseignement et de Recherche en Informatique - CERI</orgName>
<desc><address><country key="FR"></country>
</address>
</desc>
</org>
</tutelle>
</tutelles>
</hal:affiliation>
<country>France</country>
<placeName><settlement type="city">Avignon</settlement>
<region type="region" nuts="2">Provence-Alpes-Côte d'Azur</region>
</placeName>
<orgName type="university">Université d'Avignon</orgName>
</affiliation>
</author>
<author><name sortKey="Bellot, Patrice" sort="Bellot, Patrice" uniqKey="Bellot P" first="Patrice" last="Bellot">Patrice Bellot</name>
<affiliation wicri:level="1"><hal:affiliation type="laboratory" xml:id="struct-100376" status="VALID"><orgName>Laboratoire Informatique d'Avignon</orgName>
<orgName type="acronym">LIA</orgName>
<desc><address><addrLine>339 Chemin des Meinajaries Agroparc BP 1228 84911 Avignon cedex 9</addrLine>
<country key="FR"></country>
</address>
<ref type="url">http://lia.univ-avignon.fr/</ref>
</desc>
<listRelation><relation active="#struct-195507" type="direct"></relation>
<relation active="#struct-302221" type="direct"></relation>
</listRelation>
<tutelles><tutelle active="#struct-195507" type="direct"><org type="institution" xml:id="struct-195507" status="VALID"><orgName>Université d'Avignon et des Pays de Vaucluse</orgName>
<orgName type="acronym">UAPV</orgName>
<desc><address><addrLine>74 rue Louis Pasteur - 84 029 Avignon cedex 1</addrLine>
<country key="FR"></country>
</address>
<ref type="url">http://www.univ-avignon.fr/</ref>
</desc>
</org>
</tutelle>
<tutelle active="#struct-302221" type="direct"><org type="institution" xml:id="struct-302221" status="VALID"><orgName>Centre d'Enseignement et de Recherche en Informatique - CERI</orgName>
<desc><address><country key="FR"></country>
</address>
</desc>
</org>
</tutelle>
</tutelles>
</hal:affiliation>
<country>France</country>
<placeName><settlement type="city">Avignon</settlement>
<region type="region" nuts="2">Provence-Alpes-Côte d'Azur</region>
</placeName>
<orgName type="university">Université d'Avignon</orgName>
</affiliation>
</author>
</analytic>
</biblStruct>
</sourceDesc>
</fileDesc>
<profileDesc><textClass><keywords scheme="mix" xml:lang="fr"><term>Book retrieval</term>
<term>Wikipedia</term>
<term>hyphenation</term>
<term>query expansion</term>
</keywords>
</textClass>
</profileDesc>
</teiHeader>
<front><div type="abstract" xml:lang="fr">RÉSUMÉ. Les livres numérisés accessibles sur Internet constituent une importante source d'in-formation. Néanmoins, la Reconnaissance Optique des Caractères (ROC) introduit parfois des erreurs qui peuvent pénaliser la Recherche d'Information. Dans cet article nous proposons une méthode de correction des césures et nous en analysons l'impact sur une tâche de recherche de livres. Nous décrivons également une série d'expériences sur l'enrichissement de requêtes à partir de mots extraits de Wikipédia. Les résultats obtenus montrent qu'utiliser un grand nombre de mots ainsi qu'une répartition adéquate des poids entre la requête initiale et l'enrichissement apporte une amélioration significative par rapport à l'état de l'art. ABSTRACT. Digitized books are now a common source of information on the Web, however OCR sometimes introduces errors that can penalize Information Retrieval. In this paper we propose a method for correcting hyphenations and we analyse its impact on a standard book retrieval task. We also experiment query expansion with words extracted from the Wikipedia page related to the query. We show that there is a significant improvement over the state-of-the-art when using a large weighted list of words. MOTS-CLÉS : Livres numérisés, césures, enrichissement de requête, Wikipédia.</div>
</front>
</TEI>
<affiliations><list><country><li>France</li>
</country>
<region><li>Provence-Alpes-Côte d'Azur</li>
</region>
<settlement><li>Avignon</li>
</settlement>
<orgName><li>Université d'Avignon</li>
</orgName>
</list>
<tree><country name="France"><region name="Provence-Alpes-Côte d'Azur"><name sortKey="Deveaud, Romain" sort="Deveaud, Romain" uniqKey="Deveaud R" first="Romain" last="Deveaud">Romain Deveaud</name>
</region>
<name sortKey="Bellot, Patrice" sort="Bellot, Patrice" uniqKey="Bellot P" first="Patrice" last="Bellot">Patrice Bellot</name>
<name sortKey="Boudin, Florian" sort="Boudin, Florian" uniqKey="Boudin F" first="Florian" last="Boudin">Florian Boudin</name>
<name sortKey="Sanjuan, Eric" sort="Sanjuan, Eric" uniqKey="Sanjuan E" first="Eric" last="Sanjuan">Eric Sanjuan</name>
</country>
</tree>
</affiliations>
</record>
Pour manipuler ce document sous Unix (Dilib)
EXPLOR_STEP=$WICRI_ROOT/Ticri/CIDE/explor/OcrV1/Data/Main/Exploration
HfdSelect -h $EXPLOR_STEP/biblio.hfd -nk 000350 | SxmlIndent | more
Ou
HfdSelect -h $EXPLOR_AREA/Data/Main/Exploration/biblio.hfd -nk 000350 | SxmlIndent | more
Pour mettre un lien sur cette page dans le réseau Wicri
{{Explor lien |wiki= Ticri/CIDE |area= OcrV1 |flux= Main |étape= Exploration |type= RBID |clé= Hal:hal-01314943 |texte= Correction de césures et enrichissement de requêtes par Wikipédia appliqués à la recherche de livres }}
This area was generated with Dilib version V0.6.32. |